max rank | avg. rank | sentence |
---|---|---|
120 | 76.0000 | Vilniaus miesto savivaldybės tarybos narys. |
120 | 71.0000 | Vilniaus rajono savivaldybės tarybos narys. |
120 | 78.8000 | Kauno miesto savivaldybės tarybos narys. |
120 | 73.8000 | Kauno rajono savivaldybės tarybos narys. |
123 | 88.0000 | Šiaulių miesto savivaldybės tarybos narys. |
123 | 83.0000 | Šiaulių rajono savivaldybės tarybos narys. |
155 | 107.2000 | Šiaulių miesto savivaldybės tarybos pirmininkas. |
163 | 71.7143 | Vilniaus savivaldybės tarybos narys, nuo 2000 m. |
180 | 82.3333 | Kauno miesto savivaldybės tarybos narys, 2004 – 2005 m. |
196 | 74.3750 | 2003 m. – Kauno miesto savivaldybės tarybos narys. |
196 | 102.8750 | 2000 – 2003 m. ir 2003 m. kovo – balandžio mėn. |
196 | 88.7500 | 2000 – 2003 m. ir 2003 m. iki balandžio mėn. |
196 | 85.2500 | 2000 – 2003 m. ir iki 2003 m. kovo mėn. |
196 | 88.4286 | Nuo 2003 metų Šiaulių miesto tarybos narys. |
196 | 77.6667 | 2003 m. kovo 10 d. – 2003 m. kovo 10 d. |
205 | 125.0000 | Nuo 2003 m. spalio mėn. iki 2004 m. lapkričio mėn. |
205 | 95.2000 | Kauno rajono savivaldybės tarybos narys, nuo 2003 m. lapkričio mėn. |
205 | 103.2857 | 2000 m. nuo balandžio iki lapkričio mėn. |
207 | 104.8000 | Klaipėdos miesto savivaldybės tarybos narys. |
207 | 99.8000 | Klaipėdos rajono savivaldybės tarybos narys. |
207 | 104.8000 | Klaipėdos miesto savivaldybės tarybos narys; |
214 | 106.0000 | 2004 m. balandžio 6 d. – 2004 m. liepos 12 d. |
233 | 97.5000 | 1997 – 2003 m. ir iki 2003 m. balandžio mėn. |
233 | 105.6000 | Nuo 1997 m. rugpjūčio 6 d. iki 2000 m. balandžio 3 d. |
234 | 99.1667 | 2000 m. spalio 30 d. – 2000 m. spalio 30 d. |
234 | 96.7143 | 2000 m. spalio 3 d. – 2000 m. spalio 30 d. |
235 | 132.8750 | 2001 m. spalio 30 d. – 2001 m. lapkričio 20 d. |
235 | 103.5000 | 2001 m. balandžio 12 d. – 2001 m. balandžio 12 d. |
235 | 110.7778 | Klaipėdos miesto savivaldybės tarybos narys, 1997 – 2001 m. |
235 | 120.2500 | Nuo 2000 m. spalio mėn. iki 2001 m. liepos mėn. |
The maximum word rank of a sentence is by definition the rank of the rarest word in the sentence. If it is low, all words in the sentence are of high frequency. For this reason the table of the sentences with least maximum word number might be of interest. In the table, we see the corresponding sentences with a minimum length of 40 characters.
The over all distribution of the maximum rank in all sentences of the corpus is shown in a diagram with log-scaled x-axis.
The sentences in the table described above are of interest because they are usually easy to understand. The distribution may give insights into the corpus and may give parameters for language comparison.
While the distribution might be deduced from a small corpus, the sentences in the table are rare and a large corpus will give more impressive results.
Table data:
select max(w_id)-100 as m, avg(w_id)-100 as a, s.sentence from sentences s, inv_w i where s.s_id=i.s_id and length(sentence)>40 and i.w_id>100 group by s.s_id order by m limit 30;
Distribution data;
select m, count(*) from (select 100* round((max(w_id)-100)/100) as m from sentences s, inv_w i where s.s_id=i.s_id and i.w_id>100 group by s.s_id) aa group by m;
Explain the distribution, especially the increase in its right part.
4.5.2.2 Average word rank in sentence
4.5.2.3 Sentences consisting of many low frequency words I
4.5.2.4 Sentences consisting of many low frequency words II
4.5.2.5 Sentences consisting of short words only I
4.5.2.6 Sentences consisting of short words only II
4.5.2.7 Sentences consisting of long words only I
4.5.2.8 Sentences consisting of long words only II